Поиск по сходству. BLAST, E-value

Проверка гомологичности белков, найденных поиском по сходству

Для выполнения задания один я выбрала 9 белков из найденного поиском по сходству списка результатов. Первый поиск, одним из критериев которого был WordSize = 6, обнаружил слишком много белков с очень маленьким E-value. Поэтому я была вынуждена сменить значение данного критерия с шести на три. Девять моих находок описаны в Таблице 1.

Таблица 1. Характеристика белков
Номер белка ID/AC Название белка Coverage E-value Identity % Гомологичность
0 KST73838.1 Бифункциональный белок FolD (5,10-Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 100% исходный белок 100% исходный белок
1 A9BWT7.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 98% 1e-154 76% +
2 Q21WC0.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 96% 3e-144 72% +
3 Q8DQD3.2 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 96% 2e-107 59% +
4 Q2GCV3.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 95% 2e-80 51% +
5 B0S8U6.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 96% 1e-76 45% +
6 A3MXE6.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 97% 7e-38 35% -
7 Q98QV3.1 Бифункциональный белок FolD (Метилентетрагидролат дегидрогеназа и Метилтетрагидрофолат циклогидролаза) 94% 5e-32 28% -
8 Q5RJY4.1 Дегидрогеназа / редуктаза из семейства семейства 7В SDR (или Короткоцепочная дегидрогеназа / редуктаза 1 из семейства 32С) 28% 0.88 27% -
9 Q9KWX0.1 Жгутиконосный филамент 31,3 кДа основного белка (или Жгутиковая белковая субъединица B2) 30% 7.9 24% -

На Рис.1 представлено множественное выравнивание, состоящее из локальных выравниваний системы BLAST. Самая первая из последовательностей - это белок из первого семестра, остальные девять найдены специально для выполнения этого практикума. Черной рамкой обведены блоки для проверки гомологичности.

Рис.1 Множественное выравнивание десяти белков
Ссылки на fasta-файл и на JalView проект.


Обоснование гомологичности исходного белка и первых пяти находок:

~ Все эти шесть белков имеют идентичные названия (На самом деле, названия семи первых моих находок абсолютно одинаковы). Судя по названию, можно предположить, что все эти белки обладают одной и той же функцией.

~ Во время анализа множественного выравнивания всех 10 последовательностей были найдены блоки, с помощью которых можно было судить о гомологичности тех или иных последовательностей:
~ ~ Первый блок (совсем небольшой - с 5 по 8 позицию) включает в себя первые 6 последовательностей. Так как участок не обладает большими размерами, судить о последовательностях, которые расположены ниже - нерационально.
~ ~ Второй блок ( с 34 по 47 позицию) включает в себя 5 последовательностей. Включительно до 7 белка встречаются похожие участки, но судить по ним о гомологичности невозможно.
~ ~ Четвертый блок (со 101 по 112 позицию) содержит пять первых последовательностей. Для позиций со 101 по 105 блок легко можно расширить вплоть до 7 последовательности. Однако уже со 106 позиции начинаются сильные расхождения, которые делают расширение блока невозможным.
~ ~ Седьмой блок (с 248 по 259 позицию) включает в себя 6 первых белков. Изначально он содержал только пять, но, с учетом большого количества абсолютно консервативных и абсолютно функционально консервативных позиций, я сочла возможным расщирить его до шести, не смотря на замену Р на Е в 249 позиции и замену М на Y в 258 позиции шестой последовательности.
~ ~ Девятый блок (с 284 по 295 позицию) содержит 6 последовательностей. В 7 и 8 последовательностях видны ярко выраженные схожие участки, однако всего в блоке 12 столбцов, поэтому количество абсолютно консервативных позиций, равное 4 при объединении в блок 8 первых белков, кажется мне недостаточным.
~ ~ Для Третьего (54-58), Пятьго (125-128), Шестого (177-191) и Восьмого (265-272) блоков все достаточно очевидно, и их особенности легко отследить по Рис.1.

~ Первые семь белков имеют множество схожих участков, что обусловлено их общей функцией (общая функция белка не является признаком их гомологичности, тем более здесь выполнение общей функции - лишь мое предположение), но говорить об общей гомологичности этих белков нельзя. Из всех найденных блоков только Восьмой достоверно подтверждает их гомологичность, а этого недостаточно. Последние же две последовательноти практически не имеют с остальными ничего общего, поэтому их негомологичность с исходной последовательностью очевидна.

Стоит учесть, что блок - неоднозначное понятие, а значит, нельзя утверждать, что все выбранные мной участки идеально подходят под определение блока. Однако, я постаралась учесть все критерии, указанные в задании.

Описание крупных перестроек между парой белков, имеющих гомологичные участки (домены)

Для выполнения второго задания я выбрала белок из группы гемопротеинов, основной белок крови - гемоглобин [1] [2] [3] (точнее - белок гемоглобина Туфтовой утки [Aythya fuligula (Tufted duck) (Anas fuligula) [4]], Hemoglobin subunit beta [Субъединица гемоглобина бета (P84792)] [5]). Это небольшой белок длиной 147 а.к.о. Как и все гемоглобины, он участвует в переносе кислорода из легких в различные периферические ткани. Вторая последовательность, которую я выбрала - это также гемоглобин, но уже белок из организма Индийской колючехвостой ящерицы [Saara hardwickii (Indian spiny-tailed lizard) (Uromastyx hardwickii) [6]], Hemoglobin subunit alpha-1 [Субъединица гемоглобина альфа-1, другие названия - Alpha-1-globin, Hemoglobin alpha-1 chain [7]).], его длина - 90 а.к.о. Эта пара белков, согласно BLAST, имеет характеристики:
Query cover = 62%
E value = 3e-09
Ident = 34%
Accession = P18979.1
При поиске выборки, параметр Word size был установлен на 2.

Рис.2 - это карта локального выравнивания, построенна при E-value 1e-15 и Word size 3.

Рис.2 Карта локального сходства

Комментарии к Рис.2 и описание выявленных событий:

~ Ось Х - Hemoglobin subunit beta, Ось Y - Hemoglobin subunit alpha-1.
~ Фиолетовыми окружностями обведены участки, на которых произошла делеция последовательности. Самая крупная на последовательности P18979.1 - на оси Х - (темно-фиолетовая жирная линия). Чем мельче делеция - тем тоньше и ярче окраска линии окружности.
~ Оранжевым выделены участки, предположительно подвергшиеся дупликации (для примера выделены только два участка, по желанию, некоторые участки дупликации, не обозначенные цветом можно посмотреть на Рис.3).
~ Гомологичные участки представлены черным цветом. Но из-за разности длинн последовательностей один и тот же участок с оси Y равен трем (один черный и два оранжевых) участкам оси Х.
~ В итоге, последовательности можно обозначить таким образом (обобщенно):
~ ~ Ось Х: А В С Е М В С В С Е
~ ~ Ось Y: А В С Е М
На Рис.3 представлена разметка карты по секциям. Расшифровка цветового фильтра А - зеленый, В - желтый, С - синий, Е - розовый, М - серый.
Рис.3 Разметка карты локального сходства

Ссылки практикума

[1] - Википедия. Гемоглобин.
[2] - Химический факультет МГУ. Ткани и органы. Кровь. гемоглобин.
[3] - Биохимия для студента. Гемоглобин - основной белок крови.
[4] - Handbook of the birds of the world. Tufted Duck.
[5] - База данных UniProt.
[6] - DigiMorph. Uromastyx hardwickii, Indian Spiny-tailed Lizard.
[7] - База данных UniProt.

© Serebrennikova Maria 2017